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摘 要 : 针对 并 行 MRPrePost (parallel PrePost algorithm based on MapReduce) 频 繁 项 集 挖 气 算 法 在 大 数据 环境 存在 运 
行 时 间 长 ， 内 存 占用 量 大 和 节点 负载 不 均衡 的 问题 。 提 出 一 种 基于 DiffNodeset 的 并 行 频繁 项 集 挖 气 算 法 一 
PFIMD(parallel frequent itemsets mining using DiffNodeset)。 该 算法 首先 采用 一 种 数据 结构 DiffNodeset， 有 效 的 避免 
了 N-list 基数 过 大 的 问题 ， 此 外 提出 一 种 双向 比较 策略 “T-wcs”(2-Way comparison strategy)， 以 减少 两 个 DiffNodeset 
在 连接 过 程 中 的 无 效 计 算 ， 极 大 的 降低 了 算法 时 间 复 杂 度 ; 最 后 考虑 到 集群 负载 对 并 行 算 法 效率 的 影响 ， 进 一 步 提 
出 了 一 种 基于 动态 分 组 的 负载 均衡 策略 “LBSBDG”(load balancing strategy based on dynamic grouping)， 该 策略 通过 将 
频繁 1 项 集 F-list 中 的 每 项 进行 均匀 分 组 ， 降 低 了 集群 中 每 个 计算 节点 上 PPC-Tree 树 的 规模 ， 进 而 减少 了 先 序 后 序 
遍历 PPC-Tree 树 所 需 的 时 间 。 实 验 结果 表明 ， 该 算法 在 大 数据 环境 下 进行 频繁 项 集 挖 气 具 有 较 好 的 效果 。 
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Research on parallel frequent itemset mining algorithm based on MapReduce 


Liu Weiming, Zhang Chi, Mao Yimini 
(School of Information Engineering Jiangxi University of Science & Technology, Ganzhou Jiangxi 341099, China) 


Abstract: Aiming at the problem of excessive time, space complexity and unbalanced load for each node based on the parallel 
frequent itemset mining algorithm MRPrePost, this paper proposed an optimization parallel frequent itemset mining algorithm 
based on MapReduce, named PFIMD. Firstly, this algorithm adopted a data structure called DiffNodeset, which effectively 
avoid the defect that the N-list cardinality got very large in the MRPrePost algorithm. Secondly, in order to reduce the time 
complexity of this algorithm, it designed the 工 wcs (2-way Comparison Strategy) to avoid the invalid calculation in the 
procession of two DiffNodesets connection. Finally, considering the impact of cluster load on the efficiency of parallel 
algorithm, it proposed the LBSBDG (Load Balancing Strategy Based on Dynamic Grouping) , which decreased the size of 
PPC-Tree on each computing node and reduced the amount of time required to traverse the PPC-Tree by evenly grouping each 
item in the F-list. The experimental results show that the modified algorithm has better performance on mining frequent 
itemset in a big data environment. 
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0 引言 和 务 记 录 在 数据 库 中 按 行 存储 , 典型 算法 有 Apriori 算法 中 和 
各 FP-Growth 算法 外, b) 基 于 重 直 型 数据 的 算法 ,所谓 重 直 型 是 

随 着 互联 网 信息 技术 的 快速 发 展 ， 大 数据 在 社交 网 络 、 指 事务 记录 在 数据 库 中 按 列 存储 ， 代 表 算 法 有 Eclat 算法 器。 
电子 商务 、 精 准 营销 等 领域 得 到 了 广泛 的 应 用 。 相 较 于 传统 。 随 着 信息 技术 高 速 发 展 ， 大 数据 环境 下 需要 处 理 的 数据 量 不 
数据 , 大 数据 的 4V 特性 : Volume( 数 量 大 )、 Variety( 种 类 多 )、 断 增 加 ， 运 行 时 间 和 内 存 使 用 量 成 为 传统 关联 规则 挖 
Velocity( 速 度 快 )、Value( 价 值 密度 低 )， 使 得 在 大 数据 环境 下 掘 算法 的 重要 瓶颈 ， 单 纯 的 通过 提升 计算 机 硬件 水 平 来 
的 数据 挖掘 算法 需要 满足 以 下 几 个 条 件 : a) 在 大 数据 存储 时 ， ”满足 人 们 对 大 数据 分 析 与 处 理 的 需求 ， 显 得 尤为 困难 。 此 时 
不 仅 需要 存储 结构 化 数据 而 且 还 要 存储 半 结 构 和 非 结构 化 数 。” 并 行 化 的 计算 思想 变 得 非常 重要 ， 通 过 改进 传统 的 关联 规则 
据 ; b) 数据 量 增 大 的 同时 ,数据 的 价值 密度 降低 ， 要 求 算 法 ”挖掘 算法 ， 并 与 分 布 式 计算 模型 相 结合 成 为 当前 研究 的 主要 


的 挖掘 精度 能 更 高 ; c) 新 产生 的 数据 必须 要 尽快 处 理 , 要 求 。 方向 。 

算法 的 实时 性 高 帆 。 鉴 于 此 ， 大 数据 环境 下 的 数据 挖掘 成 为 近年 来 在 大 数据 处 理 方面 , Google 开发 的 MapReduce 

目前 研究 领域 的 一 个 重要 主题 。 行 编程 模型 由 于 其 操作 简单 、 自 动容 错 、 负 和 载 均衡 、 扩 展 性 
业 的 青睐 器 。 同 时 Apache 研发 的 


数据 挖掘 又 被 称 为 知识 发 现 KDD(knowledge discover in ” 强 等 优点 深 受 广大 学 者 和 企 
database)， 其 目的 在 于 发 现 大 量 数据 中 有 用 的 信息 。 常 见 的 ”Hadoop" 作 为 一 种 广泛 使 
数据 挖掘 任务 有 关联 规则 挖掘 、 分 类 、 聚 类 等 。 其 中 关联 规 。 现 了 对 MapReduce 的 动态 调用 而 且 在 很 大 程度 上 促进 ] 
则 挖掘 是 其 重要 分 支 之 一 ， 通 过 关联 规则 的 研究 能 够 准确 的 MapReduce 的 应 用 开发 。 目 前 许多 基于 MapReduce 计算 模型 
于 企 
寺 


的 MapReduce 开源 框架 ,不 仅 实 
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找 出 有 用 的 规则 ， 这 些 规则 对 于 企业 管理 上 的 决策 具有 巨大 的 关联 规则 挖掘 算法 已 成 功 应 用 到 大 数据 的 分 析 与 处 里 领域 
帮助 中 。 传 统 关 联 规则 挖掘 算法 根据 其 所 挖掘 的 数据 源 呈 现 中 。 文 献 [8~10] 采 用 传统 Apriori 算法 多 次 迭代 的 思想 ， 在 每 
式 分 为 两 类 : a) 基 于 水 平 型 数 据 的 算法 ， 所 谓 水 平 型 是 指 次 迭代 过 程 使 用 一 个 MapReduce 任务 ， 实 现 了 Apriori 算法 
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的 并 行 化 。 但 是 在 迭代 过 程 中 需要 频繁 访问 数据 集 ， 对 数据 
集 进 行 多 次 迭代 ， 消 耗 大 量 的 时 间 和 空间 。 鉴 于 并 行 Apriori 
算法 的 固有 缺陷 ， 文 献 [11~14] 中 通过 将 FP-Growth 算法 应 
MapReduce 计算 模型 进行 迁移 提出 了 并 行 FP-Growth 算法 。 
与 并 行 Apriori 算法 不 同 , 此 类 算法 在 挖掘 过 程 中 不 产生 候选 
项 集 ， 而 是 通过 两 次 扫描 事务 数据 集 ， 在 多 个 并 行 的 节点 
生成 局 部 FP-Tree 树 ， 并 对 局 部 FP-Tree 树 进行 遍历 得 到 局 
部 频繁 项 集 ， 然 后 将 其 合并 得 到 全 局 频繁 项 集 。 此 外 在 挖掘 
局 部 频繁 项 集 的 过 程 中 ， 各 计算 节点 之 间 可 以 独立 计算 ， 既 
不 需要 相互 等 待 也 不 需要 相互 交换 数据 ， 极 大 的 提高 了 并 行 
关联 规则 挖掘 算法 的 效率 。 然 而 并 行 FP-Growth 算法 在 挖掘 
过 程 中 需要 花费 大 量 时 间 来 递归 构建 频繁 项 FP-Tree 树 ， 且 
大 数据 环境 下 并 行 FP-Growth 算法 所 构造 的 FP-Tree 树 的 规 
模 十 分 巨大 ， 对 于 FP-Tree 树 的 存储 需要 消耗 大 量 的 内 存 。 
考虑 到 并 行 水 平 格式 算法 的 不 足 , 文献 [15~18] 提 出 了 并 行 的 
Eclat 算法 , 此 类 算法 在 一 定 程度 上 克服 了 从 海量 数据 集中 挖 
掘 频繁 项 集 时 存在 内 存 和 计算 能 力 不 足 的 问题 。 但 并 行 的 
Eclat 算法 需要 将 水 平 数据 集 转换 为 垂直 数据 集 作 为 输入 数 
据 ， 这 对 于 大 数据 来 说 是 无 法 实现 的 。 
为 减少 并 行 计算 中 单个 节点 的 内 存 需 求 量 与 节点 之 间 的 
通信 和 量 , Liao 等 人 [9 结合 不 同 算法 的 优势 提出 了 一 种 将 dist- 
Eclat05 与 传统 的 FP-Growth 算法 外 相 结 合 的 混合 算法 
MRPrePost 算法 。 该 算法 分 为 三 个 阶段 : 首先 通过 分 布 式 计 
算得 到 频繁 1 项 集 F-list; 其 次 构造 F-list 所 对 应 的 PPC-Tree 
树 , 并 通过 对 PPC-Tree 树 进行 先 序 和 后 序 遍 历 产生 频繁 项 的 
N-list; 最 后 对 N-list 进行 分 组 ， 并 分 布 在 多 个 节点 上 进行 频 
繁 项 集 的 挖掘 。 相 较 于 其 他 单一 的 并 行 关联 规则 挖掘 算法 ， 
MRPrePost 算法 结合 了 并 行 FP-Growth 算法 和 并 行 垂 直 算法 
的 优点 ， 既 能 对 原始 事务 集 进 行 无 损 压缩 又 可 以 快速 计算 项 
集 的 支持 度 ， 此 外 该 算法 将 对 树 的 挖掘 过 程 转变 成 与 垂直 格 
式 交 运算 类 似 的 N-list 合并 过 程 ， 该 过 程 不 需要 将 PPC-Tree 
树 保 存在 内 存 中 ， 因 此 极 大 的 节省 了 算法 的 计算 时 间 逢 
空间 。 但 是 该 算法 仍 存在 几 个 明显 不 足 : 1) 在 某 些 数据 集 上 
频繁 项 的 N-list 基数 过 大 ， 极 易 造 成 内 存 溢 出 ; 2) 在 合并 两 
个 频繁 项 的 N-list 时 需要 逐一 比较 两 者 中 的 每 一 项 ， 时 间 复 
杂 度 较 高 ;3) 在 并 行 挖 掘 频繁 项 集 的 过 程 中 未 能 充分 考虑 到 
集群 负载 均衡 对 算法 性 能 的 影响 。 针 对 上 述 问题 ， 本 文 提出 
了 一 种 基于 DifftNodeset2159 结 构 的 并 行 频繁 项 集 挖掘 算法 
一 PFIMD(parallel frequent itemsets mining using DiffNodeset)。 
该 算法 采用 了 一 种 数据 结构 DifftNodeset， 有 效 的 避免 了 N- 
list 基数 过 大 的 问题 ， 此 外 提出 了 一 种 双向 比较 策略 “ 工 
wcs”(2-way comparison strategy)， 来 减少 两 个 DiffNodeset 在 
连接 过 程 中 的 无 效 计算 ， 极 大 的 降低 了 算法 时 间 复 杂 度 ; 最 
后 考虑 到 集群 负载 对 并 行 算法 效率 的 影响 ， 进 一 步 提 出 了 
种 基于 动态 分 组 的 负载 均衡 策略 “LBSBDG”(load balancing 
strategy based on dynamic grouping)， 该 策略 通过 将 频繁 1 项 
集 F-list 中 的 每 项 进行 均匀 分 组 ， 降 低 了 集群 中 每 个 计算 节 
点 上 PPC-Tree 树 的 规模 ， 进 而 减少 了 先 序 和 后 序 遍 历 PPC- 
Tree 树 所 需 的 时 间 。 实 验 结果 表明 ， 该 算法 在 大 数据 环境 下 
进行 频繁 项 集 挖掘 具有 较 好 的 效果 。 
1 ”算法 及 相关 概念 介绍 
1.1 PrePost 算法 相关 定义 

定义 1 PPC-TreeD20。PPC-Tree 树 是 一 种 树 型 数据 结构 ， 
树 中 的 每 个 节点 均 由 以 下 五 部 分 组 成 : 

a) Item-name: 节 点 名 称 

b) count: 节 点 计数 

c) pre-order: 先 序 遍 历 序号 
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d) post-order: 后 序 遍 历 序号 

e) children-list: 孩 子 节点 集合 

定义 2 PP-codeP0。PP-code 编码 又 被 称 为 先 序 后 序 编 
人 码 ， 主 要 由 pre-order、post-order 和 count 三 部 分 组 成 。 对 于 
PPC-Tree 树 中 的 任意 节点 N ， 则 称 
(N.pre-order, N.post-order, N.count) 为 该 节点 的 PP-code 编码 。 

性 质 1 祖先 孩子 关系 PY。 给 定 PPC-Tree 中 任意 两 节点 
NN 和 NN, (Ni 关 N,) 的 PP-code, 若 满足 Nipre-order < N,.pre-order ， 
Ni.post-order > N,.post-order 则 称 节点 N 是 节点 N 的 祖先 节点 ， 
mN 为 的 孩子 节点 。 

定义 3 频繁 1 项 集 的 N-list20。 在 PPC-Tree 树 中 ， 代 
表 相 同 项 的 所 有 PP-code 编码 根据 先 序 遍历 顺序 连接 生成 的 
序列 ， 被 称 为 频繁 1 项 集 的 N-list。 

性 质 2 频繁 1 项 集 的 支持 度 Po。 给 定 项 item, 其 N-list 
为 cozhCocz) oz ， 则 项 item 的 支持 度 为 
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1 +22+,.. + o 
1.2 DiffNodeset 相关 定义 

定义 4 “< ”关系 R12 天 。 给 定 频繁 1 项 集中 的 任意 两 
项 i 和， 若 记 的 支持 度 大 于 i 的 支持 度 ， 则 表示 为 i < 。 
定义 5 2 项 集 的 DifftNodeset2123。 给 定 频 繁 1 项 集中 
的 任意 两 项 i 和 习 (i<6), 其 N-list 结构 分 别 为 N-list, ，N-list, 。 
2 项 集 这 的 DiftNodeset 结构 记 为 DNodeset, ， 定 义 如 下 : 

DiffNodeset', ={(x.pre-order, x.post-order, x.count)| 
XxeN-list, 和 —(y e N-list, )} (1) 
其 中 3》 对 应 节点 是 * 对 应 节点 的 祖先 节点 。 

性 质 3 2 项 集 的 支持 度 R1 玉 。 给 定 2 项 集 访 ， 
DiffNodeset 表示 为 aoza) oa) Coca) ， 若 i 的 支持 度 
为 supportG) ， 则 这 的 支持 度 等 于 support(ii)- (Zi+Z2+,.…,+Zs) 。 

定义 6 大 项 集 的 DifftNodeset2122。 假 设 大 项 集 已 = 这 :站 ， 
(<b <...<i <h), 频繁 天 一 1 项 集 B=ii.d gies, B=ib..d oi 所 
对 应 的 DiffNodeset 分 别 记 为 DN , PN, 。 项 集 P 的 DiffNodeset 
记 为 DN; ,其 计算 公式 如 下 : 
DN;, = DN, / DN, (2) 
其 中 “/” 表 示 和 集合 差 。 
性 质 4 项 集 的 支持 度 R!"。 给 定 庆 项 集 P=ibiiii， 
其 DiffNodeset 结构 表示 为 Ga oo …, 04y1,0) ， 若 项 和 
及 = 二 ,igi 的 支持 度 为 support(R) ， 则 项 集 P 的 支持 度 等 
support(P)- (Zz1+Z3+...+Z/) 。 


2 PFIMD 算法 
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PFIMD 算法 主要 包括 三 个 阶段 : 挖掘 频繁 1 项 集 、 频 繁 
| E 要 通过 


项 集 均匀 分 组 和 并 行 挖掘 频繁 项 集 。 在 第 一 阶段 3 
调用 一 次 MapReduce 任务 来 并 行 获取 频繁 1 项 集 F-list; 在 
第 二 阶段 中 考虑 到 集群 负载 均衡 对 并 行 算法 挖掘 效率 的 影响 ， 
使 用 动态 分 组 策略 LBSBDG 将 F-list 中 的 每 一 项 进行 均匀 分 
组 ,从 而 生成 哈 希 表 G-list; 在 第 三 阶段 中 主要 包含 并 行 挖掘 
频繁 项 集 的 Map 阶段 和 Reduce 阶段 ， 其 中 在 Map 阶段 各 个 
节点 根据 前 两 个 阶段 产生 的 F-list 和 G-list 来 构造 映射 路 径 ， 
在 Reduce 阶段 各 节点 首先 根据 映射 路 径 构 造 子 PPC-Tree 树 ， 
然后 根据 子 PPC-Tree 树 来 挖掘 局 部 频繁 项 集 , 最 后 合并 得 到 
2.1 挖掘 频繁 1 项 集 

对 于 数据 集 DB, 其 频繁 1 项 集 的 生成 过 程 主要 包括 Split、 
Map、Combine 以 及 Reduce 四 个 阶段 。a) 在 Split 阶段 : 使 用 
Hadoop 默认 的 文件 块 策略 , 将 原始 数据 集 划 分 成 大 小 相同 的 
文件 块 Block; b) 在 Map 阶段 : 文件 块 Block 作为 输入 数据 ， 
Mapper 节点 通过 调用 Map 函数 以 键 值 对 < Key=item,value=1 
的 形式 统计 出 相应 节点 中 各 项 出 现 的 次 数 ， 同 时 为 了 降低 外 


可 


和 


好 


v 


A 


202009.00109v1 


国 
国 


XIV 


录用 定稿 


地 结合 ; 


群 中 各 节点 的 数 扩 


a 


虽 通 信 量 ， 经 过 Mapper 节点 处 理 
不 会 立刻 发 送 给 Reducer 节点 ， 而 是 先 通过 combiner 进行 本 
阶段 : 本 地 节点 中 key 值 相 
处 理 后 的 键 值 对 会 被 自动 分 配 到 


c) 在 Combine 
对 进行 累加 ， 经 过 本 地 合 
不 同 的 Reducer 节点 ， 
的 Reducer 节点 ; d) 在 


value 值 进行 再 次 合并 ， 
集中 的 支持 数 , 最 后 根 j 


集 F-list。 
2.2 


新 划分 ， 


动态 分 组 策略 “ 工 
组 ， 将 原 事务 数 扩 


Tree 树 中 的 节点 一 一 对 


刘 卫 明 ， 等 : 


据 


同时 key 值 相同 


Reduce 阶段 : 需要 对 


的 键 值 对 分 配 至 


BSBDG”, 该 策 


频繁 1 项 集 均匀 分 组 

针对 大 数据 环境 下 频繁 1 项 集 
有 限 的 内 存 空间 中 构造 PPC-Tree 树 的 问题 。 本文 提 
各 通过 对 F-list 进行 均匀 分 
昌 集 各 记录 中 的 频繁 项 根据 分 组 结果 进行 


确 计算 出 每 


分 组 策略 中 通过 估计 函数 Edtem) 对 频繁 1 项 集 


模 进行 预测 。 


定义 7 负载 量 估 计 函 数 Editem) 。 若 频繁 
度 为 count， 且 在 F-list 中 的 位 


如 下 所 示 。 


证 明 对 


E(item) = min{count, 27} 


于 频繁 项 item 来 说 ， 
在 PPC-Tree 树 中 的 节点 个 数 , 显然 对 于 每 一 ] 
最 大 值 为 该 项 的 支持 度 。 而 且 在 构造 PPC-Tree 树 时 , 树 中 每 


项 的 节点 数 与 其 自身 在 F-list 序列 
繁 1 项 集 item 来 说 ， 假 设 其 在 F-list 的 位 置 为 :， 则 最 坏 情 
任意 项 组 合 在 PPC-Tree 中 都 有 
项 item， 在 此 情况 下 这 检 


况 是 排 在 iem 之 前 的 !-1 项 上 
是 该 路 径 也 包含 


对 应 的 路 径 ， 


china 


径 最 多 有 2 条。 


超过 2 与 该 项 支 


对 


划分 为 G 组 的 分 组 思 


每 一 项 的 负载 量 ， 
L-list 中 的 前 G 
一 组 的 负载 总 量 ; 
操作 ， 


“LBSBDG” 分 组 过 程 的 


算法 1 


输入 : 频繁 1 项 自 


于 此 F-list 
持 度 之 间 的 较 小 值 。 
于 频繁 1 项 集 F-list， 采 用 


输出 : 分 组 结果 G-1ist 


a) 计算 F-1ist 中 每 


L-list 人 一人 


并 根 


为 !， 则 


居 N-list 


的 位 


“LBSBDG” 分 组 
想 如 下 : 首先 根据 式 (3) 计 算 
负载 量 的 降序 排列 生成 L-list, 选取 
项 作为 初 值 依次 添加 到 0~(G-1) 组 ， 
然后 继续 对 L-list 中 未 分 组 的 
每 次 读 取 G 项 ， 在 划分 之 
总 量 是 否 相 同 ， 若 每 组 的 负载 总 量 均 相同 则 顺序 添加 ， 
G 项 分 别 添加 到 0~(G-1) 组 ， 若 不 相同 则 
项 分 别 添加 到 (G-1)~0 组 中 , 如 果 L-list 中 未 分 组 
于 G 则 将 其 依次 添加 到 负载 上 
分 组 结果 G-list 保存 到 分 布 式 文 伯 
集群 中 任意 节点 都 能 访问 到 G-list。 


最 小 的 组 中 ; 


即 可 得 到 每 个 数据 项 key 在 整个 数据 
最 小 支持 度 min_sup 筛选 上 


同 的 键 


这 些 键 值 对 的 


值 


I 相同 


频繁 1 项 


F-list 规模 太 大 ， 无 法 在 
了 一 种 


将 原 PPC-Tree 树 分 割 成 多 个 独立 的 子 树 ， 使 和 
个 节点 上 的 子 PPC-Tree 树 能 够 适应 内 存 大 小 。 


“LBSBDG ”分 组 策略 对 频繁 1 项 集 F-list 进行 均匀 分 


日 时 ， 


理由 用 


vy 


小 


其 关键 在 于 计算 F-list 中 每 一 项 的 负载 量 ， 即 频繁 1 项 集中 
每 个 项 所 对 应 N-list 结构 的 长 度 。. 然 而 N-list 中 
应 , 在 未 构造 PPC-Tree 
项 的 负载 量 。 为 了 解决 该 问题 , 在 “LBSBDG” 
item 的 长 度 规 


的 元 素 与 


树 之 前 无 法 准 


PPC- 


项 item 的 支持 
其 负载 量 估计 函数 


G3) 


的 长 度 表 示 该 项 
硕 来 说 节点 数 的 


基于 MapReduce 的 并 行 频 繁 项 集 挖 气 算 法 研究 


后 的 数 ] 


4 End for 

b) F-1ist 均匀 分 组 
G-list 二 { 纪 ,CC 
If L-listlength>=G do 
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insert_item <— {item,,item,.…,itemo } // 每 次 选取 L-1ist 中 的 前 G 项 


If 每 组 的 负载 量 均 相同 do 


G-list[].load+=item,.load // 更 新 每 组 负载 量 
Else do // 如 果 每 组 负载 量 不 全 相同 


1 
2 
3 
4 G-list[ <item // 按 顺序 将 每 
5 
6 
7 


G-list[G 一 i 一 1 革 item; // 逆 序 将 每 


G-list[G -i- 1].load+=item,.load 
8 Dell insert item )// 
9 End if 


Foreach item in L-list do 


I 除 已 添加 项 


Else do // 如 果 L-1ist 中 剩余 不 足 G 项 


gid = getMinload (G-list) / /获取 


前 负载 量 最 小 的 


项 添加 到 e~(G-1) 组 


项 添加 到 (6-1)~e 组 


组 号 


G-list[gid] < item 
G-list[gid].load +=item.load 
13 End for 
14 End if 
15 Output(G-1List) 
2.3 ”并行 挖掘 频繁 项 集 
采用 “LBSBDG” 分 组 策 


将 原始 事务 数据 集中 的 事务 进行 重新 划分 ， 


务 集 映射 到 集群 中 的 各 个 计算 节点 上 。 通 
建 子 PPC-Tree 树 , 来 完成 频繁 项 集 的 
主要 包括 并 行 挖掘 频繁 项 集 的 Map 阶 
时 为 了 降低 内 存 消耗 ， 需 要 对 原始 数据 集 进 行 预 处 理 ， 用 项 
来 蔡 换 原始 数据 肌 
任务 进行 频繁 项 集 的 


item 在 F-list 中 的 位 
处 理 后 , 各 个 节点 启动 新 的 Map 


“有 关 。 对 于 频 


的 路 


中 的 每 一 项 item 的 N-list 长 度 不 


策略 将 其 
BF-list 中 


一 项 的 负载 量 


1 Foreach item in F-list do 


2 Compute item load by Eq.(3) 


L-list <— <key = item,value = item_load> 


3 Sorted(L-list) //L-1ist 按 value 值 ; 


E 式 化 如 算法 1 所 示 。 
“LBSBDG”* 分 组 策略 
发 F-1list， 分 组 数 G 


行 非 递减 排序 


更 新 每 
项 进行 分 组 
前 需要 判定 当前 每 组 的 负载 


即将 


逆序 添加 ， 即 将 G 
[项 的 个 数 小 
最 后 将 所 得 到 的 
FE 系统 HDFS 中 ， 从 而 使 得 


裕 据 。 
2.3.1 Map 阶段 


里 后 的 数据 跟 据 哈 希 表 HTable 


记录 中 


EE 局 


在 并 行 挖 掘 频繁 项 集 的 Map 


上 ， 其 具体 过 程 为 : 首先 从 分 布 式 文 们 
局 频繁 1 项 集 F-list 和 算法 1 中 所 获得 的 哈 希 表 G-list， 并 将 
G-list 每 组 所 包含 的 项 作为 key， 
HTable ; 之 后 依次 读 取 预 处 理 后 的 每 
的 项 item ， 根 据 之 前 得 到 的 HTable ， 确 定 
然后 以 gid 为 key, 排 在 item 之 前 所 有 1 
与 此 同时 为 了 避免 同一 条 记录 多 次 
HTable 中 value= gid 的 所 有 键 值 对 。 如 果 在 虹 
应 的 组 号 ， 则 读 取 前 一 项 执行 相 


空气 任务 。 
段 和 了 Reduce 阶 


各 对 -list 进行 均匀 分 组 是 为 了 
把 划分 后 的 事 
过 在 各 个 节点 上 构 


在 此 过 程 中 
段 ， 同 


中 的 


A 


Reduce 


item。 经 过 预 


阶段 , 其 主要 任务 是 将 预 处 
映射 到 集群 中 不 同 的 计算 节点 
FF 系统 HDFS 中 读 取 全 


组 号 gid 作为 value 构建 


条 记录 ， 逆 序 遍历 该 


项 为 value 组 成 键 值 对 。 
决 射 到 同一 节点 ， 删 除 
射 时 找 不 到 对 


其 组 号 gid ， 


同 操作 ， 直 到 该 记录 执行 完 


毕 ; 最 后 将 所 得 的 所 有 结果 作为 Reduce 阶段 的 输入 传送 给 
Reduce 函数 。 其 操作 过 程 如 算法 2 所 示 。 


算法 2 ”并 行 挖掘 频繁 项 集 
险 入 : 预 处 理 后 的 数据 pre_data ， 
输出 : 映射 路 径 <key, value=path> 
a) 建立 哈 希 表 HTable 
1 从 HDFS 中 读 入 G-1ist 
2 Foreach 8§ in G-list do 


3 Foreach item in 8 do 
Htable[g[item]]=gid 

4 End for 

5 End for 

b) 生成 映射 路 径 


1 Foreach trans in pre_data 


的 Map 过 程 
F-list, G-list 


do 


2 items[] 一 Split(trans) // 将 输入 的 数据 进行 


分 解 并 保存 到 空 


录用 定稿 


数组 items[ ] 中 


刘 卫 


3 For j=len(items)-1 to 6 do 
4 If Htable[items[j]] not null do // 判 断 items[Jj] 所 在 路 


径 属于 哪个 组 


path={items[6],items[1]，… 


5 End if 


,items[j]} 


明 ， 等 : 


output(key=Htable[items[j]],value=path) 
del(Htable[items[j]]) 


6 End for 
7 End for 
2.3.2 Reduce 阶段 


在 Reduce 阶段 , 首先 采 
此 外 在 合 


list 基数 过 大 的 问题 。 
程 中 使 


] DiffNodeset 数据 结构 避免 N- 
并 两 个 频繁 1 项 集 的 N-list 过 
双向 比较 策略 “Twcs” 能 够 极 大 减少 


比较 次 数 ， 从 


而 加 快 完成 频繁 1 项 集 的 N-list 合并 任务 。 


性 质 5 序列 一 致 性 原则 。 对 于 频繁 
(2 ， 则 有 < 为 <.… 
| 跟 据 N-list 的 定义 本 文 可 知 
(ww) 对 应 节点 N ， 于 


为 {043153), (by) 


) 对 应 节 


Qh, 


jes 


项 nw, 其 人 N- list 表示 


< < 


有 


Niitem-name =N, item-name , 则 六 与 N> 不 存在 祖先 孩子 关系 ,而 xc 


说 明 N, 相 较 


于 来 说 一 定 在 右 子 树 上 ， 跟 据 后 序 遍 历 的 规则 ， 
一 定 存 在 四 的 后 序 遍 历 序列 小 于 N 的 后 序 遍 
依 此 类 推 <m<…<ym 成 立 。 


集 的 N-list 


一 种 双向 搜索 策 


给 定 两 个 频繁 1 项 集 和 maeFlistA <D)， 
表示 为 Nist; 和 Nist,， 且 长 度 为 m 和 n， 其 具体 


P11 ZH) im》 


N-lista 
N-list,,= 


在 并 行 挖掘 频繁 项 集 过 程 
结构 合并 产生 2 项 集 的 DiffNodeset 结构 , 如何 降 
低 该 过 程 的 运行 时 间 是 该 算法 的 关键 所 在 。 为 此 本 文 提出 了 
， 该 策略 通过 利用 序列 一 致 性 原 
理 和 祖先 孩子 关系 能 够 大 大 减少 合并 过 程 中 所 需要 比 对 的 次 


次 略 “Twcs?” 


={G@m 


{C045 713221 ) X23 az) Co 


中 最 重要 的 


Yim Zim)} 


步 是 将 频繁 1 项 


其 N-list 分 别 

乡 式 如 下 : 
(4) 
(5) 


yn Z2n)} 


在 比较 两 者 中 的 任意 项 (Xas Vas a) 和 (oozz) 时 ， 根据 序 


列 一 致 性 原则 


a) Yia > yp ， 


(Xp» yp 7p ) 在 PPC-Tr 


所 对 应 节点 Nl 


中 的 祖先 节 


只 存在 三 种 情况 : 
(zazsmlsbzsn) 。 根 1 


居 祖 先 孩 子 关 系 可 知 
ee a 点 No[9] 不 是 (Ws yas) 
点 。 此 外 根据 序列 一 致 性 


原理 可 知 


频繁 1 项 集 的 N-list ee post- -order 的 升序 序列 排序 , 所 以 


Nob] 也 不 是 Nist 中 排 在 Nila] 
择 N 加 下 一 个 节点 进行 比较 。 
b) za > ya < , (Sasmlsbsn) 。 根 才 


之 后 元 素 所 对 应 


居 祖 先 孩 子 


的 祖先 节点 ， 选 


关系 可 知 


(4,y21226) 在 PPC-Tree 树 中 所 对 应 的 节点 No] 是 (wo,yioszi) 所 


对 应 节点 Nild 的 祖先 节点 。 
选择 Nila] 的 下 


<az<m,l<b<n) 


的 DiffNodeset 中 ， 


c) Xla Xopr Via < yp , ( 
Go) 所 对 应 的 节点 No 加 不 是 wwwzo) 所 对 应 节点 Nila] 
也 不 可 能 是 [之 后 任意 元 素 的 孩子 
点 ,满足 2 项 集 DiffNodeset 定义 。 故 而 将 加 插入 到 2 项 


的 祖先 节点 ， 


集训 的 DiffNodeset 中 ， 
其 操作 过 程 如 算法 3 所 示 。 
算法 3 双向 搜 


此 外 Ni[a 


竹 出 : 


Procedure T-wcs (ii) 


DNin 和 分 


1 二 


2 1c Nlisty 的 长 度 ， 


: 频繁 1 项 集 的 
2 项 集 的 DiffNodeset 


所 以 节点 Ni[q] 


不 包含 在 2 项 集训 


个 元 素 进行 比较 。 
。 根 据 祖先 孩子 关系 可 知 


索 策 略 工 wcs 的 执行 过 


N-1ist 结构 


he Nist 的 长 度 


选择 交 国 的 下 一 个 节点 进行 比较 。 


程 


基于 MapReduce 的 并 行 频繁 项 集 挖 据 算法 研究 


历 序列 ， 即 w%<y， 


先 序 、 后 序 遍 


行 合 
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3 while a<lAb<l, do 

4 If Ni[alpostrorder > N,,[bl.post-order do 
bp<—pb+l 

5 Else 

6 If Ni[al.post-order < Na[b].post-order 入 
7 Ni[al.pre-order > Na:[b].pre-order do 
a< 一 at+1 

8 Else 

DN © DN JV{ Na [a 

a—a+l 

9 End if 

10 End if 

11 End while 

12 If a<l then 

13 while a</l do 

DNi» € DNia VA Nala 

aat+l 

14 End while 

15 End 

16 Output DMip 


nl 


得 到 频繁 2 


算法 4 并 行 挖掘 频繁 项 集 的 Reduce 过 程 

: 最 小 支持 度 min_sup， 

映射 路 径 <key=Htable[Items[j]]，value=path> 
: 频繁 项 集 F_item 

a) 构造 PPC-Tree 


F 
1 

2 Foreach t in value do 

3 curNode < root // 插 入 当前 节点 
4 

5 


Foreach item in t do 


Call insert tree(curNode,item) 


// 调 用 ijnsert_tree() 函 数 构造 PPC-Tree 树 
6 End for 
7 End for 
F_item=F_item U Fi 
b) 生成 频繁 1 项 集 的 N-1list 
1 scan_by_pre(root) // 先 序 遍 历 PPC-Tree 
2 scan_by_post(root) // 后 序 遍历 PPC-Tree 
3 NL1[] < N-list Constructtion(root) 
// 生 成 所 有 频繁 1 项 集 的 N-1ist 
c) 生成 频繁 2 项 集 的 DiffNodeset 


Fl < items 

1 Foreach item in Fl do 
2 If groupID(item)== 
3 DNi < T-wcs(item)// 调 
DiffNodeset 


key do 


T-wcs 生成 以 item 


4 Foreach item in DNi2 do 
5 Compute item sup by property(3) 


6 If item sup 2min _ sup do 


| 除 ; 然后 采用 双 


期 刊 


第 38 卷 第 3 期 


在 并 行 挖掘 频繁 项 集 的 Reduce 阶段 ， 系 统 中 每 个 计算 
节点 先 要 根据 Map 阶段 输出 的 键 值 对 , 通过 调用 insert_tree() 
函数 在 各 个 节点 中 构造 PPC-Tree 树 ， 并 对 PPC-Tree 树 进 行 
历 ， 从 而 得 到 频繁 1 项 集 的 N-list， 同 时 为 了 
少 内 存 消耗 , 通常 将 PPC-Tree 树 从 内 存 中 
向 搜索 策略 “T-wcs” 和 性 质 3 将 频繁 1 项 集 的 N-list 结 
项 集 的 DiffNodeset; 最 后 根据 定义 6 和 性 
质 4 和 迭代 挖掘 出 所 有 的 频繁 项 集 。 


减 


入 进 


头 的 
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F2.add(item) 间 复 杂 度 更 小 。 
3 ”实验 结果 及 比较 
9 End if 3.1 实验 环境 
16 End for 为 了 验证 PFIMD 算法 的 挖掘 性 能 ， 本 文 设 计 了 相关 实 
F_item=F_item U F2 验 。 实验 环境 包含 4 节点 , 其 中 1 个 Master 节点 , 3 个 Slaver 
d) 递归 生成 所 有 频繁 项 集 节点 。 所 有 节点 的 CPU 为 AMD Ryzen 7， 每 个 CPU 都 拥有 
1 Function: Mining Fre_Items(DN_k min_sup) 8 个 处 理 单元 ， 其 内 存 均 为 16G， 且 四 个 节点 处 于 同一 个 局 
2 Foreach DN kli], DN kV] in DNk do 域 网 ， 并 通过 200Mb/s 以 太 网 相连 。 在 软件 方面 每 个 节点 安 
3 DN, ¢ DN_k[i].DiffNodeset ， 装 的 Hadoop 版 本 为 2.7.4，java 版 本 为 JDK 1.8.0， 操 作 系 统 
DN, ¢ DN _k[j].DiffNodeset 均 为 Ubuntu 16.04。 各 个 节点 的 具体 配置 情况 如 表 1 所 
DN', =DN UDN, 表 1 实验 环境 中 各 节点 的 基本 配置 
DN,, .DiffNodeset = DN, / DN, Tab.1 The foundation configuration of each node in 
4 Calculate sup(DN,) by property(4) the experimental environment 
5 If sup(DN,)>min sup do 节点 类 型 ”主机 名 IP 地 址 色 
DN_k_1.add(DN1,,DN1,.DiffNodeset) master master 192.168.1.109 master/JobTracker/NameNode 
6 End if slaver slaver_1 192.168.1.110 slaver/TaskTracker/DateNode 
7 End for slaver slaver 2 192.168.1.111 slaver/TaskTracker/DateNode 
F item<-F itemUDN Kk 1 slaver Slaver 3 192.168.1.112 Slaver/TaskTracker/DateNode 
8 If DNk!1 not null do 3.2 实验 数据 
9 Mining Fre lems(DN_k_l,min_sup) /递归 调用 频繁 项 集 PFIMD 算法 所 使 用 的 实验 数据 为 三 个 真实 的 数据 集 , 分 
16 End if 别 为 Susy、webdocs 和 kosarak。SusyD23] 是 一 个 记录 使 用 粒子 
11 Output (Fitem ) 加 速 器 探测 粒子 的 数据 集 ， 该 数据 集 包 含 5000000 条 实例 ， 
2.4 PFIMD 算法 步骤 共有 190 项 , 具有 数据 量 多 , 记录 长 度 均匀 , 项 数 少 等 特点 ; 
PFIMD 算法 的 具体 实现 步骤 如 下 所 示 。 webdocs 数据 集 是 由 意大利 科学 家 Claudio Lucchese 等 人 通 
a) 通过 Hadoop 默认 的 文件 块 策略 ， 将 原始 数据 集 划 分 ”过 网 络 聆 虫 抓 取 的 Web 文档 数据 ,该 数据 集 包 含 1692082 条 
成 大 小 相同 的 文件 块 Block; 数据 ， 共 有 5267656 个 项 ， 具 有 数据 量 多 ， 记 录 长 度 长 ， 项 
b) 对 于 每 一 个 文件 块 调用 频繁 1 项 集 Flist 的 生成 过 程 ， 数 多 等 特点 P9;， kosarak 数据 集 P3] 记 录 了 匈牙利 一 家 大 型 新 
获得 全 局 频繁 1 项 集 ， 并 将 结果 存 入 分 布 式 缓存 系统 HDFS 中 ; 闻 网 站 点 击 流 数据 , 该 数据 集 包 含 990002 条 数据 ,共有 41270 
c) 调用 均匀 分 组 策略 LBSBDG 将 F-list 中 的 每 一 项 进 项 ， 具 有 数据 量 少 ， 项 数 较 多 ， 数 据 离散 等 特点 。 数 据 集 的 
行 分 组 ， 生 成 分 组 结果 G-list: 体 信 息 如 表 2 所 示 。 
d) 启动 新 的 MapReduce 任务 ， 在 Map 阶段 调用 算法 2 表 2 实验 数据 集 
将 原始 数据 集 分 别 映射 到 各 个 计算 节点 上 ， 并 在 Reduce 阶 Tab.2 Datasets used in the experimental 
段 调用 算法 4 迭代 挖掘 全 局 频繁 项 集 F_item 。 Susy webdocs kosarak 
2.5 算法 分 析 记录 数 (条 ) 5000000 1692082 990002 
PFIMD 算法 主要 包括 三 个 阶段 : 挖掘 频繁 1 项 集 、 频 繁 项 数 (个 ) 190 5267656 41270 
1 项 集 均匀 分 组 和 并 行 挖掘 频繁 项 集 ， 因 此 该 算法 的 时 间 复 大 小 (MB) 321 1481.9 32.1 
杂 度 主要 有 三 部 分 组 成 。 在 挖掘 频繁 1 项 集 阶段 的 Map 阶段 ”3.3 ”PFIMD 算法 的 性 能 分 析 
需要 遍历 事务 数据 集 每 一 条 记录 中 的 每 一 项 ， 假 设 每 个 为 验证 PFIMD 算法 在 大 数据 环境 下 挖掘 频繁 项 集 的 可 


Mapper 节点 上 的 记录 数目 为 %， 记 录 的 平均 长 度 为 ， 则 其 行 性 ， 本 文选 取 最 小 支持 度 阔 值 为 1000，10000，20000 和 
时 间 复 杂 度 为 0m*D ; 在 Reduce 阶段 需要 将 每 个 计算 节点 100000, 分 别 将 PFIMD 算法 应 用 于 Susy、webdocs 和 kosarak 
上 的 key 值 相同 的 键 值 对 进行 合并 ， 假 设 每 个 Reducer 节点 “三 个 数据 集中 独立 运行 10 次 ， 取 10 次 结果 的 均值 ， 通 过 对 
中 项 的 平均 个 数 为 fw，Mapper 节点 个 数 为 w， 则 其 时 间 复 杂 算法 运行 时 间 和 内 存 使 用 量 的 比较 ， 从 而 实现 对 PFIMD 算 
度 为 OHw*M ， 因 此 获取 频繁 1 项 集 的 总 时 间 复 杂 度 为 ” 法 性 能 的 综合 评估 。 图 1 为 PFIMD 算法 在 3 个 数据 集 的 执 
Ooms*L+Tans*M 。 在 频繁 1 项 集 均 匀 分 组 阶段 主要 是 采用 行 结果 。 从 图 1 中 可 以 看 出 当 支 持 度 从 1000 变化 到 10000 
LBSBDG 将 中 的 每 一 项 进行 分 组 ， 假 设 其 F-list 长 度 为 7， 时 ， 该 算法 在 三 种 数据 集 的 运行 时 间 和 内 存 使 用 量 都 有 较 大 
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分 组 数 为 6， 则 其 时 间 复 杂 度 为 04/1G) ， 即 为 00 。 在 并 行 挖 。 的 下 降 。 这 是 因为 随 着 支持 度 的 增 大 ， 频 繁 1 项 集 F-list 的 
据 频 繁 项 集 过 程 中 只 需 将 当前 频繁 项 集 和 频繁 项 集 的 。” 规模 急剧 下 降 ， 采 用 “LBSBDG” 策 略 分 配 到 每 个 计算 节点 
DiffNodeset 结构 保存 在 内 存 中 ， 极 大 的 降低 了 内 存 的 开销 。 ”上 的 项 也 有 所 减少 ， 同 时 也 降低 了 每 个 计算 节点 中 子 PPC- 
同时 该 过 程 的 时 间 复 杂 度 主要 取决 于 将 频繁 1 项 集 的 N-list Tree 树 的 规模 ， 极 大 的 减少 了 产生 N-list 结构 所 需 的 时 间 。 
结构 合并 生成 2 项 集 的 DiffNodeset 结构 ， 假 设 频繁 1 项 集 此外， 使 用 “T-wcs” 搜 索 策略 生成 2 项 集 的 DiffNodeset 时 
F-list={1,b,…4}， 项 所 对 应 的 N-list 长 度 为 5， 采 用 搜索 策略 的 时 间 复 杂 度 是 线性 的 ， 且 在 挖掘 频繁 项 集 时 只 需要 将 以 当 
T-wcs 生成 2 项 集 DiffNodeset 时 间 复 杂 度 为 C2>I+) ,其 ” 前 项 为 前 级 的 频繁 项 集 保存 在 内 存 中 ， 极 大 的 降低 了 内 存 占 
中 a，b 的 取 值 范围 为 (1, 7 )， 因 此 对 于 PFIMD 算法 来 说 其 时 。 然 而 随 着 支持 度 持续 增加 ， 算 法 的 运行 时 间 和 内 存 使 
间 复 杂 度 为 0®*L+To*M + 1+22CL+)。 在 MRPrePost 算法 用 量 减 小 的 趋势 越 来 越 缓慢 , 这 是 因为 MapReduce 计算 模型 
前 两 个 阶段 的 时 间 复杂 度 基本 相同 ， 而 在 合并 两 个 频繁 1 项 工作 调度 以 及 在 中 间 结 果 的 WO 上 占用 了 大 部 分 时 间 从 而 影 
集 N-list 过 程 中 需要 逐一 比较 两 个 N-list 结构 之 间 的 每 个 元 向 了 算法 的 性 能 。 

素 其 时 间 复 杂 度 为 00,>L.*L) 。 因 此 可 知 PFIMD 算法 的 时 
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图 1 PFIMD 算法 的 性 能 分 析 
Fig.1 The performance of PFIMD 

3.4 PFIMD 算法 性 能 比较 
3.4.1 PFIMD 算法 时 间 复 杂 度 比较 

为 验证 PFIMD 算法 的 挖掘 效果 ， 本 文 将 PFIMD 算法 分 
别 与 PFP-Growth 算法 L111, LBPFP 算法 04, MREclat 算法 [17， 
SPEclat 算法 08 和 MRPrePost 算法 09 进 行 了 对 比 。 在 执行 上 
述 并 行 算法 时 需要 根据 每 个 数据 集 的 F-list 规模 设置 分 组 数 
目 ， 表 3 给 出 三 种 数据 集 在 不 同 支持 数 下 F-list 数目 的 具体 
情况 ,根据 F-list 大 小 对 于 Susy 数据 集 设置 分 组 数 为 50 组 ， 
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多 , PFIMD 算法 比 SPEclat，MREclat，PFP-Growth 夭 
降低 了 66.0%, 79.5%, 62.1% 和 52.1%; 


算法 的 执行 时 间 分 别 


在 webdocs 数据 集 
31.5%,37.6%,17.3% 和 
集 过 程 中 PFIMD 算法 将 对 树 
据 结构 的 合并 任务 ， 极 大 的 降低 了 算法 的 运行 时 间 。 相 反 ， 

在 挖掘 频繁 项 集 时 ，SPEclat 算法 和 MREclat 算法 需要 先 将 
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1 LBPFP 


上 降低 的 最 少 ， 但 也 分 别 降 低 了 
17.06%。 这 是 


于 在 并 行 挖掘 频繁 项 
的 遍历 转换 为 对 DiffNodeset 数 
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水 平 数 据 集 转 为 垂直 数据 集 , 然后 采 
次 迭代 来 完成 频繁 项 集 


类 Apriori 算法 通过 多 


的 挖掘 ,同样 对 于 LBPFP 算法 和 了 PFP- 
Growth 算法 需要 递归 的 构建 频繁 项 集 的 条 件 模式 树 , 这 两 者 
都 需要 消耗 大 量 的 时 间 。 
的 MRPrePost 算法 的 挖 
PFIMD 算法 的 执行 时 让 
为 PFIMD 算法 采 
条 DiffNodeset 时 间 


此 外 , 可 以 发 现 PFIMD 算法 比 最 优 


加 效果 都 好 , 尤其 在 Susy 数据 集 上 ， 

比 MRPrePost 算法 降低 了 21.8%。 主 
双向 搜索 策略 “T-wcs” 使 得 生成 2 
复杂 度 是 线性 的 ， 
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且 PFIMD 算法 


EE 


了 挖掘 频繁 项 集 
将 频繁 1 项 集 分 


时 采用 动态 分 组 策略 “LBSBDG”， 均 
配 到 各 个 计算 节点 
的 同时 也 减 小 了 集群 中 各 节点 中 子 PPC-Tree 树 的 规模 ， 


FPF， 在 确保 集群 负载 


kosarak 数据 集 设置 分 组 数 为 100 组 ，webdocs 数据 集 设置 


t 


分 
组 数 为 1000 组 ， 分 别 在 上 述 三 个 数据 集 上 运行 六 种 并 行 算 
法 ， 实 验 结果 如 图 2 所 示 。 
表 3 不 同 支 持 度 下 各 数据 集 的 Flist 规模 


Tab.3 F-list size of each dataset under different support degrees 
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数据 集 1000 20000 100000 
webdocs 17104 2420 556 
kosarak 1253 102 32 
Susy 117 99 91 
4800 一 “一 PEIMID 
一 上 一 MRPrePost 
分 一 4 一 PEP-Growth， 
名 3 一 * 一 MREclat 
加 图 E 
之 i 
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b) 六 种 算法 在 kosarak 上 的 执行 时 间 
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—&— SPFclat 
25 | 
—4— MREclat 
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| 
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Min Sup (103) 
c) 六 种 算法 在 Susy 上 的 执行 时 间 
图 2 不 同 算法 在 不 同 数 据 集 上 的 运行 时 间 比 较 


Fig.2 Comparison of time complexity of different algorithms 
从 图 2 中 可 以 看 出 ,， 相 较 于 其 他 算法 , PFIMD 算法 在 各 
个 数据 集 上 的 运行 时 间 均 有 降低 ， 其 中 在 kosarak 降低 的 最 
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比 减少 了 先 序 后 序 遍 历 子 PPC-Tree 树 所 需要 的 时 间 , 进 
降低 了 PFIMD 算法 的 运行 时 间 。 
PFIMD 算法 空间 复杂 度 比 较 

于 PFP-Growth 算法 、LBPFP 算法 、MRPrePost 算法 


和 PFIMD 算法 都 对 原始 数据 集 进行 了 无 损 压 缩 ， 因 此 本 文 


除了 考察 并 行 算法 的 运行 时 间 外 ， 还 统计 了 支持 度 为 
10000,20000 和 100000 下 每 种 算法 在 集群 中 各 个 节点 消耗 的 
平均 内 存 大 小 ， 如 图 3 所 示 。 
一 * 一 PFIMD 
600 一 一 MRPrePost 
一 全 一 ] BRBPFP 
一 9 一 PP-Growth 
名 500] J 
e 
SD 4001 
加 
号 300 ] 
0 20 100 
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a) 四 种 算法 在 webdocs 上 的 内 存 使 用 量 
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c) 四 种 算法 在 Susy 上 的 内 存 使 用 量 
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图 3 不 同 算法 在 不 同 数据 集 上 的 内 存 使 


量 比较 


Fig.3 Comparison of space complexity of different algorithms 
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从 图 3 可 以 看 出 ， 在 三 个 数据 集 上 MRPrePost 算法 和 
PFIMD 算法 所 消耗 的 内 存 大 小 明显 小 于 LBPFP 算法 和 PFP- 
Growth 算法 ， 这 是 由 于 MRPrePost 算法 和 PFIMD 算法 在 挖 
掘 频 繁 项 集 时 只 需要 根据 PPC-Tree 树 生成 频繁 1 项 集 的 N- 
list 结构 ， 之 后 将 PPC-Tree 树 从 内 存 中 删除 ， 节 省 了 大 量 的 
内 存 空间 ， 而 对 于 LBPFP 算法 和 PFP-Growth 算法 在 挖掘 频 
时 需要 递归 构造 条 件 模式 子 树 ， 所 有 的 条 件 模式 子 树 
都 需要 保留 在 内 存 中 。 同 时 相 较 于 MRPrePost 算法 ，PFIMD 
算法 在 对 三 个 数据 集 挖掘 频繁 项 集 时 所 使 用 的 内 存 空间 更 少 ， 
尤其 在 Susy 数据 集 上 ， 其 内 存 使 用 量 比 MRPrePost 算法 减 
少 了 22.7%。 一 方面 是 因为 PFIMD 算法 使 用 双向 搜索 策略 

“T-wcs”, 每 组 在 挖掘 时 只 需要 将 以 当前 项 为 前 缀 的 频繁 项 
集 保 存在 内 存 中 ， 极 大 的 降低 了 内 存 占用 量 ， 而 且 采 用 动态 
分 组 策略 “LBSBDG”， 均 匀 的 将 频繁 1 项 集 分 配 到 各 个 计 
算 节 点 中 减 小 了 各 节点 中 子 PPC-Tree 树 的 规模 ; 另 一 方面 
于 PFIMD 算法 采用 DiffNodeset 结构 避免 了 在 数据 集 上 N- 
list 基数 较 大 的 问题 ， 如 表 4 所 示 ， 本 文 对 Susy、webdocs、 
kosarak 三 个 数据 集 的 频繁 项 集 的 DiftNodeset 结构 和 N-list 
结构 基数 进行 了 统计 ， 从 表 中 可 以 看 出 在 各 个 数据 集 上 频繁 
项 集 的 DiffNodeset 结构 比 N-list 结构 的 规模 小 , 尤其 对 于 密 
集 型 数据 集 Susy 来 说 DiffNodeset 结构 的 优势 更 明显 。 

表 4 DiffNodeset 结构 与 N-list 结构 对 比 
Tab.4 The comparison of DiffNodeset and N-list 
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dataset Min Sup Avg.DiffNodeset Avg.N-list reduction ration 
Susy 15% 74 972 13.1 
webdocs 1% 3604 5793 1.6 
kosarak 0.2% 282 2091 7.4 
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为 解决 传统 频繁 项 集 挖 气 算法 在 大 数据 环境 下 的 不 足 ， 
本 文 提出 了 一 种 新 的 并 行 频繁 项 集 挖掘 算法 PFIMD。 该 算法 
首先 采用 DiffNodeset 数据 结构 ， 有 效 避 免 了 PrePost 算法 中 
N-list 基数 过 大 的 问题 ; 其 次 , 提出 一 种 双向 搜索 策略 “T-wcs”， 
以 加 快 2 项 集 的 DiffNodeset 生成 任务 , 降低 算法 的 时 间 复 杂 
度 ; 最 后 ， 结 合 Hadoop 云 计 算 平 台 和 MapReduce 编程 模型 
对 改进 后 的 ProPost 算法 各 步骤 进行 并 行 化 处 理 ， 并 且 提 出 
了 一 种 基于 动态 分 组 的 负载 均衡 策略 “LBSBDG”， 解 决 了 
集群 各 节点 负载 不 均衡 的 问题 。 与 其 他 并 行 频繁 项 集 挖 掘 算 
法 相 比 , 该 算法 充分 结合 了 水 平 型 算 法 和 垂直 型 算法 的 优点 ， 
利用 其 独特 优势 来 实现 频繁 项 集 的 挖掘 。 同 时 为 了 验证 
PFIMD 算法 的 挖掘 性 能 ， 本 文 在 Susy、webdocs、kosarak 三 
个 数据 集 上 对 PFIMD、MRPrePost、 PFP-Growth、MREclat、 
LBPFP 和 SPEclat 六 种 算法 进行 对 比分 析 ， 实 验 结果 表明 相 
比 于 其 他 几 种 算法 , PFIMD 算法 在 运行 时 间 和 内 存 使 用 量 上 
都 具有 明显 的 优势 。 
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